Telegram Group Search
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ReZero — маленькая модель, которая никогда не сдаётся

🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.

🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.

Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.

Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.

Обучается с помощью усиленного обучения (RL) — формируя привычку "не сдаваться".


🔜Github
🔜 Модель

@ai_machinelearning_big_data


#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 ArXiv MCP Server

arxiv‑mcp‑server — это самостоятельный MCP‑сервер¹, который «оборачивает» arXiv.org в набор инструментов, доступных ИИ‑ассистентам (Claude Desktop, ChatGPT‑плагины, собственные агентовые фреймворки).

Благодаря этому ассистент может искать, скачивать и читать научные статьи, а также запускать готовые промпты для глубокого анализа работы, не покидая чата. 


¹ MCP (Message Control Protocol) — открытый протокол Anthropic для обмена сообщениями и инструментами между LLM‑клиентом и сервером.

Ключевые возможности
- Поиск статей search_papers — фильтры по запросу, диапазону дат, категориям.

- Загрузка статьи download_paper — хранит PDF/метаданные локально, чтобы не дергать arXiv повторно.

- Список локальных статей list_papers.

- Чтение содержимого read_paper — отдаёт текст постранично.

- Готовые исследовательские промпты — например, deep-paper-analysis, который строит полное ревью (summary, методология, импликации, дальнейшая работа и т.д.). 

Github
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Что сложнее: пройти собеседование в MANGA или поступить в ШАД?

В новом выпуске MLinside — Алексей Толстиков, кандидат физико-математических наук, руководитель Школы анализа данных Яндекса (ШАДа) и эксперт в олимпиадах по программированию рассказывает:

▪️Как устроен отбор в Школу и зачем нужен сложный экзамен
▪️Как готовиться к интервью и почему важна честность
▪️ Насколько важен нетворк и коммьюнити

Переходите к выпуску

По сути, это готовый мануал к поступлению и если вы сейчас выбираете трек развития в машинном обучении — обязательно к прослушиванию.
🧪 DeepEval — open-source фреймворк для оценки работы языковых моделей, вдохновленный принципами Pytest. Проект решает ключевую проблему LLM-разработки: как объективно измерить качество ответов ChatGPT, RAG-пайплайнов или AI-агентов без ручных проверок.

В отличие от разрозненных метрик вроде RAGAS или G-Eval, DeepEval объединяет 20+ критериев оценки от релевантности контекста до токсичности и SQL-инъекций в промптах. Инструмент также имеет встроенную облачную платформу для сравнения разных версий LLM — она визуализирует, как изменения влияют на accuracy и безопасность.

🤖 GitHub

@machinelearning_interview
Forwarded from Machinelearning
📌 Miras: как улучшить модели через память и внимание.

Google Research опубликовал интересную статью «It’s All Connected», в которой предлагают решение проблемы квадратичной сложности трансформеров в обработке последовательностей : фреймворк Miras, который объединяет онлайн-оптимизацию, управление памятью и внимание в единую систему, что в итоге позволяет создавать более эффективные модели.

Miras — это 4 компонента: архитектура памяти, целевая функция (смещение внимания), регуляризация удержания и алгоритм обучения. Miras позволяет экспериментировать с loss-функциями (Huber loss для устойчивости к выбросам) и регуляризацией (KL-дивергенция, Elastic Net).

С помощью Miras были созданы 3 тестовые модели — Moneta, Yaad и Memora. Moneta использует Lp-нормы для баланса между запоминанием и устойчивостью, Yaad комбинирует L1 и L2 через Huber loss, а Memora применяет Softmax с KL-регуляризацией.

В экспериментах тестовые модели обошли трансформеры и современные RNN на задачах языкового моделирования и поиска информации в длинных контекстах. На тесте «иголка в стоге сена» (8K токенов) Moneta достигла точности 98.8%, тогда как Mamba2 — лишь 31%.

Статья не просто теоретическое изыскание — это практическое руководство для разработки моделей. Четкая структура Miras помогает систематизировать существующие подходы и экспериментировать с компонентами. Например, замена регуляризации на Elastic Net или Bregman divergence может улучшить управление памятью в нишевых задачах.

Miras — шаг к более осмысленному проектированию архитектур. Если трансформеры — это «кувалда» для масштаба, то описанный в статье подход Google Research - хирургический инструмент, где каждый компонент настраивается под конкретную задачу.

🟡Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Поступление в ШАД: даже одна попытка откроет путь к большим возможностям!

Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечён Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!

В ШАДе вас ждёт не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые вчера казались невозможными, и получают мощный буст для карьеры.

Создавать инновационные решения, продвигать науку, запускать стартапы или делиться опытом — всё это доступно выпускникам ШАДа! Если хотите стать одним из них, не теряйте времени — подайте заявку до 4 мая!

Классные плюшки: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн. Не упустите шанс: попробуйте поступить и откройте перед собой новые горизонты!
Forwarded from Machinelearning
🌟 Describe Anything: сегментное аннотирование изображений и видео.

Describe Anything Model (DAM) - архитектура, разработанная Nvidia, для генерации точных и детальных описаний для конкретных областей на изображениях и видео. Традиционные VLM-модели как отдельная сущность или в связке с SAM-помощниками часто теряют ньюансы, особенно при наличии мелких объектов или динамичных сцен на целевом источнике.

DAM справляется с этим за счет 2 инноваций в своей архитектуре:

🟢Фокальный промпт — комбинация полного изображения и его маски с обрезанной областью интереса, расширенной для захвата контекста (например, увеличение bounding box в 3 раза).

🟢Локализованный визуальный бэкбон — два параллельных энкодера: глобальный (обрабатывает все изображение) и региональный (анализирует фокальный промпт). Они объединяются механизм cross-attention, позволяя сохранять детали объекта и его связь с окружением.

Модель принимает изображение или видео и бинарную маску целевой области интереса. Глобальный энкодер извлекает общие признаки, региональный — фокусируется на деталях выбранной зоны. Через адаптеры с кросс-вниманием признаки объединяются, после чего LLM генерирует описание. Для видео маски применяются к каждому кадру, а признаки агрегируются во времени.

▶️В релизе DAM представлены 3 модели:

🟠DAM-3B - базовая модель для аннотирования изображений;

🟠DAM-3B-Video - модель для работы с видео;

🟠DAM-3B-Self-Contained - автономная версия базовой модели для интеграций без сторонних зависимостей.


▶️Локальный инференс с интерактивным Gradio WebUI:

# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything

# Create a conda env
conda create -n describe-anything
conda activate describe-anything

# Install dependencies
pip install -v

# Gradio Demo for Image Descriptions
python demo_simple.py

# Gradio Demo for Video Descriptions
python demo_video.py


📌Лицензирование моделей: NVIDIA Noncommercial License.

📌Лицензирование кода : Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DAM #NVIDIA #Annotation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔬 Исследователи MIT создали периодическую таблицу машинного обучения — как у Менделеева, но для алгоритмов 🤖

В таблице показано, как связаны более 20 методов ML, а пустые ячейки намекают на алгоритмы будущего, которые ещё предстоит открыть.

«Это не просто красивая метафора. Мы начинаем видеть машинное обучение как структурированную систему, которую можно исследовать — а не просто действовать вслепую»,
— Шаден Альшаммари, аспирантка MIT и главный автор работы.

https://news.mit.edu/2025/machine-learning-periodic-table-could-fuel-ai-discovery-0423
🔥 Репозиторий kaggle-solutions содержит различные решения задач и конкурсов на платформе Kaggle. В нем собраны материалы, созданные для работы с данными, машинного обучения и анализа данных

🌟 Эти решения предоставляют готовые примеры использования алгоритмов и методов для решения практических задач в области Data Science. Репозиторий может быть полезен как для обучения, так и для применения на практике

🔐 Лицензия: MIT

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
📎 X-AnyLabeling — профессиональный инструмент для автоматической разметки данных с интегрированным ИИ. Он представляет собой расширенную версию популярного AnyLabeling, дополненного промышленными функциями для профессионального использования.

Проект поддерживает работу как с изображениями, так и с видеофайлами, включая сложные задачи трекинга объектов в потоковом режиме. Все благодаря встроенной интеграции с более чем 20 современными моделями компьютерного зрения, а также гибкой системе работы с форматами аннотаций, охватывающая все основные стандарты отрасли

🤖 GitHub

@data_analysis_ml
МТС приглашает разработчиков на масштабную ИТ-конференцию True Tech Day 6 июня. Участие бесплатно

Ключевая тема конференции в этом году — искусственный интеллект. Тебя ждут доклады ученых, выступления зарубежных спикеров по AI и экспертов крупных ИТ-компаний.

В программе:
— 4 трека и больше 40 докладов.
— Выступления зарубежных спикеров с индексом Хирша более 50.
— Концентрация практических кейсов: как создаются большие ML-проекты.
— Доклады по архитектуре, бэкенд-разработке и построению ИТ-платформ.
— AI-интерактивы и технологические квесты.
— Пространство для нетворкинга,
…а еще after-party со звездным лайн-апом.

Когда: 6 июня
Где: Москва, МТС Live Холл и онлайн
Участие бесплатно. Регистрация по ссылке.
2025/05/12 21:07:07
Back to Top
HTML Embed Code: